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摘要 以 GPT 系列 为 代表 的 大 规模 预 训 练 语言 模型 的 快速 发 展 ， 深 刻 改变 了 自然 语言 处 理 领 域 的 科研 与 工程 
范式 ， 对 医疗 、 教 育 、 司 法 、 金 融 等 相关 领域 产生 了 深远 影响 。 同 时 ， 这 也 为 语言 本 身 的 研究 带 来 了 一 些 新 的 
可 能 性 。 本 文 从 歧义 分 析出 发 ， 简 要 评估 GPT4、 百 川 2、ChatGLM3 等 模型 对 以 歧义 为 代表 的 复杂 语言 现象 的 
理解 和 分 析 能 力 。 实 验 结果 表明 ，GPT4 可 以 融合 歧义 消解 和 句法 分 析 等 方法 ， 有 效 感知 和 理解 复杂 的 语言 现 
es aa De oli lian 提升 其 分 
析 能 力 。 此 外 ， 通 过 监测 大 模型 在 处 理 不 同 语言 现象 时 的 内 部 特征 与 神经 元 活动 ， 可 以 直观 展现 语言 现象 与 大 
nn 实验 结果 表明 , 大 语言 模型 可 以 辅助 人 类 更 好 地 理解 语言 的 本 质 , 揭示 语言 现象 深层 次 规 得 
从 而 为 语言 学 研究 提供 新 的 思路 。 


Abstract The research and engineering paradigm of natural language processing has been shifted with the rapid 


Tay 


development of large languages models represented by the GPT series. It makes a significant impact on the related fields 
such as healthcare, education, judiciary and finance. At the same time, it also brings new possibilities for linguistics, the 
study of language itself. In this paper, we employ GPT4, Baichuan2 as well as ChatGLM3 and investigate their abilities 
of analyzing complex linguistic phenomena, taking ambiguity as an example. The experimental results show that GPT4 
can effectively perceive and understand complex linguistic phenomena by integrating ambiguity resolution and syntactic 
analysis. For Baichuan2, if it is guided properly via prompt engineering, its analytical ability can be improved without 
parameter optimization. In addition, the relationship between linguistic phenomena and large language models can be 
visually demonstrated by monitoring the internal features and neuron activities of the models when processing 
ambiguous sentences in different context. In general, our experiments indicate that large language models are beneficial 
to better understanding the analyzing complex linguistic phenomena, hence providing new alternatives for linguistic 
research. 
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自然 语言 是 人 类 最 重要 的 沟通 工具 之 一 ， 其 中 存在 着 大 量 的 歧义 与 不 确定 性 ， 同 一 个 词 或 者 句子 在 不 


同 语 境 下 有 不 同 的 涵义 。 此 外 ， 语 言 随 着 人 类 社会 发 展 而 不 断 演化 ， 有 鲜明 的 时 代 和 文化 特征 。 这 给 利用 
计算 机 技术 有 效 分 析 和 处 理 自然 语言 带 来 了 巨大 挑战 。 由 于 自然 语言 的 复杂 性 和 灵活 性 ， 仅 依赖 专家 知识 


构建 的 自然 语言 处 理 系 统 往往 无 法 有 效 处 理 现实 中 复杂 的 语言 现象 。 因 此 ， 随 着 机 器 学 习 算 法 的 发 展 、 算 


力 基 础 设施 的 进步 以 及 海量 文本 数据 的 积累 ， 基 于 统计 的 机 器 学 习 方 法 逐步 成 为 自然 语言 处 


里 的 主流 ， 计 


算 语 言 A 学 也 成 为 语言 百 学 丰 究 的 重要 方向 o 


近年 来 ， 随 着 以 BERT[1] 和 GPT[2] 为 代表 的 预 训 练 技术 的 快速 发 展 ， 自 然 语 言 处 理 和 计算 语言 学 中 的 


机 器 学 习 方 法 逐步 由 依赖 大 量 人 工 标注 数据 的 全 监督 学 习 ， 过 渡 到 依赖 较 少 样本 的 迁移 学 习 ， 


再 到 只 依赖 


几 个 或 者 不 依赖 任何 标注 样本 的 少 样本 和 零 样本 学 习 。 基 于 大 语言 模型 ， 我 们 可 以 按照 具体 需求 来 设 定 提 


示 词 ， 以 较 低 的 人 力 成 本 解决 各 类 问题 。 已 有 分 析 结 果 表明 ，GPT4[3] 等 业界 领先 的 商用 大 模型 在 多 项 任务 


上 展现 出 了 逼近 甚至 超越 人 类 专家 的 能 力 [4]。 
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本 文 以 自然 语言 中 的 歧义 分 析 为 例 ， 探 究 大 语言 模型 对 于 自然 语言 本 身 的 复杂 现象 的 分 析 和 理解 能 力 。 
包括 探究 模型 能 否 感 知 自然 语言 中 的 歧义 现象 ， 并 结合 上 下 文 对 于 歧义 现象 做 出 准确 判别 和 分 析 。 除 此 之 
外 ， 我 们 监测 大 语言 模型 在 处 理 不 同文 本 时 的 神经 元 内 部 活动 ， 尝 试 将 模型 隐 层 特征 与 自然 语言 表层 的 歧 
义 现象 进行 对 照 ， 从 模型 特征 的 角度 为 语言 现象 寻求 解释 。 实 验 结果 表明 , (1) 大 语言 模型 对 于 自然 语言 
中 的 歧义 有 一 定 的 感知 和 分 析 能 力 。 其 中 ，GPT4 等 规模 更 大 、 通 用 能 力 更 强 的 模型 ， 对 于 歧义 的 感知 与 
分 析 能 力 强 于 百川 [5] 和 ChatGLMI[6] 等 开源 模型 。(2) 通过 提示 词 对 模型 加 以 引导 , 即便 不 进行 参数 优化 ， 
也 可 以 提升 模型 的 歧义 分 析 能 力 。(3) 大 语言 模型 内 部 的 神经 元 活动 与 自然 语言 现象 有 一 定 的 对 应 关系 。 
对 齐 大 模型 内 部 特征 与 语言 学 现象 和 相关 理论 ， 可 以 成 为 语言 学 研究 的 新 方向 。 


1 ”自然 语言 中 的 卜 义 现象 


自然 语言 中 的 歧义 是 指 一 个 句子 在 表层 形式 相同 时 ， 有 两 种 或 者 两 种 以 上 不 同 的 理解 方式 。 朱 德 巾 先 
生 认 为 ,“ 一 种 语言 语法 系统 里 的 错综复杂 和 精细 微妙 之 处 往往 在 . 歧义 现象 中 得 到 反映 ”[7]。 歧 义 类 型 包 
括 词汇 歧义 ， 如 “苹果 ”可 以 代表 水 果 ， 也 可 以 代表 苹果 公司 ; 结构 歧义 ， 如 “ 咬 死 了 猎人 的 狗 ” 可 以 理 
解 为 “猎人 的 狗 被 咬 死 了 ”， 或 者 “ 狗 咬 死 了 猎人 ” 语 境 歧 义 ， 如 “他 走 了 一 个 小 时 ” 可 以 理解 为 “他 离 
开 一 个 小 时 ”或 者 “他 走 了 一 段 需要 耗 时 一 个 小 时 的 路 ” 不 同类 型 的 玉 义 现象 可 以 用 不 同 的 语言 学 理论 
进行 分 析 。 如 图 1 所 示 ， 我 们 采用 成 分 句法 分 析 ， 对 “Ishot an elephant in my pajamas.” 进 行 分 析 。 对 于 介 
词 短 语 “ 在 睡衣 里 (in my pajamas)”, 可 以 通过 修饰 句子 不 同 的 成 分 ， 分别 表达 “我 1)” 在 睡衣 里 ， 还 是 
“大 象 (anelephant)” 在 睡衣 里 。 虽 然 表层 形式 相同 ， 但 不 同 的 理解 方式 可 以 非常 直观 地 用 不 同 的 成 分 句 
法 树 分 别 进行 表达 。 


H 


| shot an elephant in my pajamas . 
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1 利用 成 分 句法 树 分 析 自 然 语言 中 的 歧义 现象 


在 日 常 沟通 中 ， 引 入 上 下 文 是 消除 歧义 的 重要 方法 。 对 于 “I shot an elephant in my pajamas.”, 在 不 同 
的 上 下 文中 可 以 有 不 同 的 理解 方式 : 


I shot an elephant in my pajamas. As I stumbled out of bed, still drowsy, I couldn't believe what I was seeing. 
(我 在 睡衣 里 打 死 了 一 头 大 象 。 当 我 跌跌撞撞 地 从 床上 下 来 时 , DAE SAKE, 不 敢 相信 看 到 的 一 切 。) 
I shot an elephant in my pajamas. How he got in my pajamas I'll never know. 


(我 打 死 了 一 头 在 我 睡衣 里 的 大 象 。 我 永远 不 会 知道 他 是 怎么 穿 上 我 的 睡衣 的 。) 


一 般 来 讲 ,“ 我 穿着 睡衣 打 死 大 象 ” 似 乎 更 符合 常理 。 然而,， 上 面 两 句 话 中 的 第 一 句 其 实 是 由 GPT4 E 
成 的 ， 第 二 句 话 则 来 自 格 劳 乔 ，。 马 克 斯 《Groucho Marx) 的 经 典 台词 。 可 见 ， 歧 义 不 仅 仅 只 会 带 来 沟通 障 
碍 或 者 增加 沟通 成 本 ， 也 可 以 成 为 一 种 修辞 手段 ， 带 来 意 想不到 的 戏剧 效果 《如 图 2 所 示 )。 
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“One morning I shot an elephant in my pajamas. 


How he got in 
my pajamas, 
I don't know." 


Groucho Marx 


2 ”歧义 带 来 的 戏剧 效果 


2 ”大 语言 模型 对 歧义 的 感知 
大 语言 模型 在 多 种 任务 上 展现 出 了 强大 的 能 力 ， 可 以 以 零 样本 或 者 少 样本 的 方式 完成 实体 识别 、 情 感 


分 析 、 文 本 分 类 、 机 器 翻译 等 常见 的 自然 语言 处 理 


任务 。 在 大 语言 模型 的 训练 过 程 中 ， 我 们 并 没有 显 式 地 


引入 语言 学 理论 ， 而 是 基于 海量 数据 ， 利 用 自 监督 任务 进行 大 规模 训练 。 同 时 ， 通 过 指令 微调 和 强化 学 习 
将 模型 输出 与 人 类 偏好 对 齐 ， 进 一 步 提升 大 语言 模型 基于 自然 语言 的 交互 能 力 [8]。 这 里 ， 我 们 首先 探究 大 
语言 模型 能 否 感知 到 自然 语言 中 的 歧义 现象 ， 并 基于 语言 学 理论 进行 有 效 分 析 。 


我 们 分 别 采用 GPT4、 百 川 2 和 ChatGLM3, = BARRY 


领先 的 商业 大 模型 之 一 ， 可 以 通过 


量 分 别 为 130 亿 和 60 亿 。 


首先 ， 我 们 不 在 提示 词 中 进行 其 他 引导 ， 只 让 GPT4、 百 川 2 和 ChatGLM3 解释 一 下 上 文中 的 例子 : 


结果 如 图 2 所 示 。GPT4 首先 说 明 这 是 一 个 有 歧义 的 句子 ， 并 且 准 确 给 


“I shot an elephant in my pajams.”. 


的 大 语言 模型 进行 相关 实验 。GPT4 是 最 


API 进行 调用 ， 但 无 法 获取 模型 内 部 结构 与 中 间 状 态 。GPT4 的 参数 规 
模 并 未 公布 ， 预 计 远 大 于 GPT3 的 1750 亿 参 数 。 百 川 2 和 ChatGLM3 是 领先 的 开源 大 模型 ， 我 们 可 以 方 
便 地 获取 模型 内 部 结构 与 中 间 状 态 。 这 里 我 们 采用 Baichuan2-Chat-13B 和 ChatGLM3-6B-32K 模型 ， 参 数 


出 了 两 种 不 同 的 解释 ， 同 时 进一步 说 明 上 下 文 会 影响 句子 的 意思 。 百 川 2 只 是 给 出 了 这 句 话 最 符合 常理 的 
一 种 解释 ， 并 未 提 及 句子 有 歧义 。 而 且 百 川 2 出 现 了 “ 约 觉 Challucination 
脑 经 急 转 弯 答案 ， 与 事实 不 符 。ChatGLM3 的 回复 比较 简洁 ， 仅 给 出 了 最 符合 常理 的 解释 。 显 然 ， 如 果 不 
进行 额外 的 提示 和 引导 ， 百 川 2 和 ChatGLM3 难以 感知 和 分 析 句 子 中 的 歧义 现象 。 


GPT4 的 结果 : 


+? GPT-4 


请 解释 一 下 这 句 话 的 意思 : “| shot an elephant in my pajamas.” 


)” 问 题 ， 将 句子 解释 为 谜语 或 


这 句 话 "shot an elephant in my pajamas." 在 英语 中 是 一 个 经 常 被 引用 的 句子 ， 因 为 它 有 歧 
义 。 句 子 的 直接 翻译 是 :“ 我 穿着 睡衣 射 杀 了 一 头 大 象 。” 


但 这 句 话 的 歧义 在 于 ， 我 们 并 不 清楚 是 “我 "穿着 睡衣 还 是 “大 象 " 穿 着 睡衣 。 


1. 可 能 的 解释 是 ， 


2. 另 一 个 解释 是 


说 话 的 人 穿着 睡衣 射击 了 大 象 。 
， 大 象 穿着 那个 人 的 睡衣 ， 并 被 那个 人 射击 了 。 


这 个 句子 经 常 被 用 来 展示 英语 语法 的 复杂 性 和 有 趣 之 处 ， 以 及 如 何 语 境 和 修饰 词 的 位 置 可 以 
影响 句子 的 意思 。 


1 图 片 来 源 : https://www.facebook.com/ChessForumNYC 


百川 2 的 结果 : 


旦 ”请 解释 一 下 这 句 话 的 意思 :"l shot an elephant in my pajamas." 


矶 ”这 句 话 的 字面 意思 是 :“ 我 在 睡衣 里 射 杀 了 一 头 大 象 。” 然而， 这 个 表达 实际 上 是 一 个 著名 的 
英语 谜语 或 脑筋 急 转 弯 的 答案 。 这 个 谜语 是 :“ 我 穿着 睡衣 射 杀 了 一 头 大 象 一 一 我 该 怎么 
办 ?“ 正 确 的 答案 是 :“ 穿 上 衣服 。 ”所 以 ， 这 句 话 实际 上 是 在 开玩笑 。 


ChatGLM3 的 结果 : 


请 解释 一 下 这 句 话 是 什么 意思 : “| shot an elephant in my pajamas.” 


‘=, 这 句 话 的 意思 是 :“ 我 在 睡衣 (pajamas) 的 时 候 射 杀 了 一 头 大 象 。 ”这 里 的 “pajamas" 是 指 睡衣 ， 
而 “shot” 则 表示 射击 。 所 以 这 句 话 的 意思 是 在 睡衣 的 帮助 下 ， 成 功 地 射击 了 一 头 大 象 。 


我 们 进一步 探究 ， 如 果 在 提示 词 中 对 大 模型 加 以 引导 ， 开 源 模 型 能 否 正确 分 析 例 句 中 的 歧义 现象 。 扣 
果 如 图 4 所 示 。 首 先 ， 我 们 明确 提示 模型 从 歧义 的 角度 分 析 。 此 时 ， 百 川 2 认为 这 人 句 话 确实 有 歧义 ， 但 


对 不 同 理解 的 解释 
明确 引导 模型 从 
并 给 出 了 两 种 可 能 


3 ”大 语言 模型 对 有 歧义 句子 的 解释 


fia as 


Dy Kei BR AURA aT GAAS IE i FELT , FTE POA a, 
在 睡衣 中 ”的 角度 去 思考 问题 。 我 们 看 到 , 这 时 百川 2 可 以 正确 分 析 造 成 歧义 的 原因 ， 


的 解释 。 同 时 ， 模 型 说 明 “ 大 象 在 我 睡衣 里 ”这 种 情况 不 太 符 合 正常 逻辑 。 相 比 百 川 2， 


ChatGLM3 的 尺寸 更 小 ,对 歧义 的 分 析 能 力也 更 弱 。 我 们 可 以 看 到 ， 即 便 在 给 出 明确 的 提示 时 ，ChatGLM3 
仍然 无 法 正确 给 出 分 析 结 果 。 由 于 ChatGLM3 完全 无 法 感知 和 分 析 例 句 中 的 歧义 ,我们 在 后 续 实验 和 分 析 
中 不 再 包括 ChatGLM3 的 结果 。 


百川 2 的 结果 


a 


这 句 话 有 没有 层 义 呢 ? 


这 句 话 确实 有 一 定 的 层 义 性 。 从 字面 上 看 ， 它 描述 了 一 个 人 穿着 睡衣 射 杀 一 头 大 象 的 场景 。 
然而 ， 如 果 从 夸张 的 角度 理解 ， 它 可 以 表示 某 人 做 了 一 些 大 胆 或 出 人 意料 的 事情 。 因 此 ， 这 
句 话 的 含义 取决 于 语 境 和 听众 的 理解 。 


这 句 话 有 没有 歧义 呢 ? 提示 : 请 从 "我 "在 “睡衣 ”中 ， 还 是 “大 象 ”在 “睡衣 ”中 进行 分 析 


这 人 句 话 的 歧义 主要 来 自 于 “in my pajamas” 这 部 分 。 从 语法 上 看 , “in my pajamas” 是 修饰 “shot 
anelephant” 的 ， 所 以 这 里 的 “我 "是 在 穿 睡衣 的 状态 下 射 杀 了 大 象 。 但 是 ， 如 果 从 夸张 的 角度 
理解 ， 那 么 “in my pajamas” 也 可 以 理解 为 修饰 “elephant”" 的 ， 意 思 是 “在 我 的 睡衣 里 的 大 象 ”, 
这 显然 是 不 合 逻 辑 的 。 所 以 ， 这 人 句 话 的 歧义 在 于 “我 "和 “大 象 "的 关系 上 。 


ChatGLM3 的 结果 : 


这 人 句 话 确实 存在 歧义 。 根 据 上 下 文 和 语 境 ， 可 以 有 不 同 的 解释 : 


1， 一 个 人 穿着 睡衣 (pajamas) 在 床上 ， 用 枪 射击 了 一 头 大 象 。 
2， 一 个 人 穿着 睡衣 (pajamas) 在 床上 ， 用 枪 射击 了 自己 的 大 象 。 


因此 ， 在 理解 这 和 句 话 时 ， 需 要 结合 具体 的 语 境 和 背景 信息 。 
这 句 话 有 没有 歧义 呢 ? 提示 : 请 从 ' 我 "在 “睡衣 "中 ， 还 是 “大 象 "在 “睡衣 * 中 进行 分 析 


抱歉 刚刚 的 回答 没有 解释 清楚 。 这 人 句 话 的 歧义 主要 在 于 “大 象 " 和 "睡衣 ”的 位 置 关 系 。 
1， 如 果 “ 大 象 "在 “睡衣 ”中 ， 那 么 这 句 话 的 意思 是 :“ 我 在 睡衣 (pajamas) 里 面 的 时 候 ， 用 枪 射 


击 了 一 头 大 象 。” 这 种 解释 可 能 发 生 在 一 个 人 穿着 睡衣 ， 然 后 把 大 象 藏 在 睡衣 里 ， 最 后 用 枪 
射击 它 。 


2. 如果 “睡衣 ”在 “大 象 ”中 ， 那 么 这 句 话 的 意思 是 :“ 我 在 睡衣 (pajamas) 里 面 的 时 候 ， 用 枪 射 
击 了 自己 的 大 象 。” 这 种 解释 可 能 发 生 在 一 个 人 穿着 睡衣 ， 然 后 用 枪 射击 了 自己 藏 在 大 象 里 
的 另 一 头 大 象 。 


所 以 ， 这 句 话 的 确 存在 歧义， 需要 根据 具体 的 语 境 和 背景 信息 来 理解 。 
图 4 通过 加 入 更 多 提示 信息 来 提升 大 语言 模型 的 分 析 能 


接 下 来 ， 我 们 测试 GPT4 与 百川 2 利用 语言 学 方法 分 析 歧 义 句子 的 能 力 。 如 图 $ 所 示 ，GPT4 给 出 了 
例句 在 两 种 不 同 理解 下 的 成 分 句法 树 。 对 照 图 1， 给 出 的 句法 树 的 总 体 结构 完整 量 基 本 准确 。 对 于 表层 形 
式 相 同 但 有 歧义 的 句子 ， 基 于 有 监督 学 习 的 传统 句法 分 析 模 型 很 难 根据 不 同 的 理解 给 出 不 同 的 分 析 结 果 。 
GPT4 则 可 以 将 歧义 感知 与 句法 分 析 方 法 较 好 融合 起 来 。 相 比 之 下 ， 百 川 2 对 句子 进行 成 分 语法 分 析 的 能 
力 较 弱 (图 6)。 虽 然 百 川 2 给 出 了 部 分 正确 的 分 析 结 果 ， 对 于 两 种 不 同 的 理解 ， 却 给 出 了 相同 的 句法 树 ， 
并 没有 将 歧义 分 析 与 成 分 句法 分 析 对 应 和 融合 起 来 。 


请 分 别 给 出 这 两 种 情况 的 成 分 句法 分 析 树 
当 大 象 穿着 "我 "的 睡衣 时 


句法 分 析 树 描述 了 句子 结构 和 组 件 之 间 的 关系 。 对 于 句子 "| shot an elephant in my 
pajamas”， 以 下 是 两 种 不 同 解释 的 句法 分 析 树 S 
eX 
当 “ 我 "穿着 睡衣 射 杀 大 象 时 NP VP 
| GEN 
IV NP 
obo aX 
shot NP PP 
/ VN 


elephant in NP 


n 
A FLX 在 这 种 解释 中 ， 介 词 短语 (PP) "in my pajamas" 是 名 词 短 语 (NP) "elephant" 的 修饰 语 ， 表 明 大 


elephant my pajamas 象 穿 着 什么 


请 注意 ， 这 些 树 形 结构 是 简化 的 ， 只 描述 了 基本 的 成 分 关系 。 句 法 分 析 树 可 以 更 复杂 ， 包 括 
更 多 的 语法 细节 和 关系 


在 这 种 解释 中 ， 介 词 短语 (PP) "in my pajamas" 是 动词 短语 (VP) 的 修饰 语 ， 表 了 明 动作 是 在 什 
么 情境 下 发 生 的 


5 GPT4 返回 歧义 句子 在 不 同 理解 下 对 应 的 成 分 句法 树 


六 ”这 两 种 解释 的 树 形 结构 如 下 : 
晤 ”请 定 一 句 话 : "1shot an elephant in my pajamas." 这 句 话 有 歧义 ， 取 决 于 "我 "在 “睡衣 "中 ， 
还 是 “大 象 "在 “睡衣 中 "， 可 以 有 不 同 的 理解 。 请 给 出 不 同 理解 的 成 分 句法 树 。 


1. "I" {£ "pajamas" 中 : 


(root © 
(np (prp i)) 
æ ; > 3 (VP (vbd shot) 
© 1. "I" "pajamas" 中 :我 穿着 睡衣 射 杀 了 一 头 大 象 。 Components: (S (NP (PRP I)) (VP (VP er ON ce a 
(VBD shot) (NP (DT an) (NN elephant)) (PP (IN in) (NP (NNS pajamas))))) (pp (in np (nns pajamas) )))) 
2. "elephant" 在 "pajamas" 中 :我 射 杀 了 一 头 穿著 睡衣 的 大 象 。 Components: (S (NP (PRP 中 2. "elephant" E "pajamas" h: 
(VP (VP (VBD shot) (NP (DT an) (NN elephant)) (PP (IN in) (NP (NNS pajamas))))) 
(root 
(np (prp i)) 
(VP (vbd shot) 
À ”请 用 树 的 形式 展示 (np (dt an) (nn elephant)) 
上 R 


(pp (in np (nns pajamas))))) 


6 百川 2 返回 歧义 句子 在 不 同 理解 下 对 应 的 成 分 句法 树 


除 此 之 外 ， 我 们 测试 大 语言 模型 能 否 和 人 类 一 样 ， 在 不 同 的 语 境 中 ， 对 包含 歧义 的 句子 进行 消 靶 ， 并 
给 出 正确 解释 。 如 图 7 所 示 ，GPT4 给 出 了 详尽 解释 ， 并 指出 给 定 的 例 铀 有 攻 义 。GPT4 依据 不 同上 下 文 语 
境 ， 对 句子 的 理解 非常 准确 。 相 比 之 下 ， 百 川 2 却 无 法 根据 上 下 文 进行 正确 分 析 。 在 没有 进行 额外 提示 的 
前 提 下 ， 百 川 2 并 未 感知 到 给 定 的 句子 有 歧义 ， 这 与 上 文 的 测试 结果 一 致 ( 图 3 和 图 4)。 在 不 同 的 上 下 文 
中 , 百川 2 都 给 出 了 最 符合 常理 的 一 种 解释 , 但 在 “I shot an elephant in my pajamas. How he got in my pajamas 
I'll never know.” 中 ， 这 种 解释 显然 并 不 合理 。 


在 "| shot an elephant in my pajamas. As | stumbled out of bed, still drowsy, | couldn't believe 在 “| shot an elephant in my pajamas. How it got into my pajamas, I'll never know.” 中 ，"| shot 
what | was seeing.” }, “I shot an elephant in my pajamas” 应 该 怎么 理解 ? an elephant in my pajamas” 应 该 怎么 理解 ? 


这 句 话 “| shot an elephant in my pajamas”" 是 一 个 经 典 的 语言 学 例子 ， 用 来 展示 句子 的 歧义 这 句 话 是 一 个 经 典 的 笑话 ， 起 源 于 Groucho Marx。 在 这 里 ，"| shot an elephant in my 
性 。 句 子 本 身 可 以 有 两 种 不 同 的 解读 : pajamas" 这 句 话 被 故意 构造 成 歧义 。 


1. 我 穿着 睡衣 射击 了 一 头 大 象 。( 即 是 说 ， 当 我 射击 大 象 时 ， 我 穿着 睡衣 。) 和 之 前 的 解释 一 样 ，"| shot an elephant in my pajamas.” 可 以 有 两 种 解释 : 
2. 我 射击 了 一 头 穿着 睡衣 的 大 象 。 ( 即 是 说 ， 这 头 大 象 穿着 睡衣 。) 
1. 我 穿着 睡衣 射击 了 一 头 大 象 。 


在 大 多 数 情境 下 ， 第 一 种 解释 更 为 合理 ， 因 为 大 象 通常 不 会 穿 睡衣 。 但 这 句 话 的 结构 使 得 两 2. 我 射击 了 一 头 穿着 睡衣 的 大 象 。 
种 解释 在 语法 上 都 是 可 能 的 。 

但 是 ， 随 后 的 句子 “How it got into my pajamas, I'll never know.” 明确 了 这 个 笑话 的 意图 ， 它 是 
当 这 句 话 与 下 文 的 “As1stumbled out of bed, still drowsy, | couldn't believe what | was 在 玩弄 这 种 歧义 。 这 句 话 暗示 了 第 二 种 解释 ， 即 大 象 是 如 何 进入 他 的 睡衣 的 ( 即 ， 大 象 穿 了 
seeing." 结 合 时 ， 更 容易 倾向 于 第 一 种 解释 ， 因 为 提 到 了 “从 床上 摇 摇 晃 网 地 息 起 来 ， 仍 然 错 说 话 者 的 睡衣 ) ， 这 是 一 个 荒 廖 的 概念 ， 从 而 制造 了 幽默 效果 。 所 以 在 这 种 情境 下 ，“1 shot 
错 沉 沉 "， 这 暗示 说 话 者 可 能 刚刚 醒 来 ， 所 以 他 穿 的 是 睡衣 。 an elephant in my pajamas" 应 该 被 理解 为 我 射击 了 一 头 穿着 我 的 睡衣 的 大 象 ”。 


图 7 GPT4 依据 上 下 文中 分 析 句 子 歧义 


高 ”在 "|shotan elephant in my pajamas. As | stumbled out of bed, still drowsy, | couldn't believe 
what | was seeing", "I shot an elephant in my pajamas." 应 该 怎么 理解 ? 


S ”这 句 话 的 意思 是 :“ 我 在 睡衣 里 射 杀 了 一 头 大 象 。” 


这 个 句子 是 一 个 幽默 的 、 夸 张 的 表达 ， 用 来 强调 说 话 者 当时 非常 惊讶 或 者 难以 置信 。 在 这 
里 ， 说 话 者 在 睡衣 里 射 杀 大 象 是 一 个 非常 夸张 和 不 现实 的 行为 ， 所 以 用 来 表达 他 的 惊讶 和 难 
以 置信 。 


& 在 "Ishotanelephantin my pajamas. How he got in my pajamas I'll never know. "中 , "| shot 
an elephant in my pajamas." 应 该 怎么 理解 ? 


a ”这 是 一 个 幽默 的 谜语 。 这 句 话 的 意思 是 :“ 我 在 睡衣 里 射 杀 了 一 头 大 象 。 我 不 知道 它 怎么 会 
到 我 的 睡衣 里 来 。 "这 里 的 "shot an elephant in my pajamas" 是 一 种 夸张 的 说 法 ， 实 际 上 不 可 
能 在 睡衣 里 射 杀 一 头 大 象 。 这 种 表达 方式 是 为 了 制造 幽默 效果 。 


8 百川 2 依据 上 下 文中 分 析 旬 子 歧义 


综 上 所 述 ，GPT4 和 百川 2 对 于 以 歧义 为 代表 的 复杂 语言 现象 都 有 一 定 的 感知 和 分 析 能 力 。 但 作为 参 
数量 更 大 、 通 用 能 力 更 强 的 商用 模型 ，GPT4 的 分 析 能 力 明 显 强 于 规模 较 小 、 能 力 较 弱 的 开源 模型 。GPT4 
更 像 是 一 个 训练 有 素 的 语言 学 家 ， 可 以 敏锐 感知 复杂 和 细微 的 语言 学 现象 ， 并 通过 专业 的 语言 学 方法 进行 


6 


分 析 。 相 比 之 下 ， 百 川 2 模型 更 像 是 一 个 普通 人 ， 对 此 义 的 感知 和 分 析 能 力 较 弱 。 在 不 进行 明确 提示 的 时 
候 ， 甚 至 无 法 感知 和 分 析 例句 中 的 歧义 。ChatGLM3 则 没有 表现 出 任何 感知 和 分 析 歧 义 的 能 力 。 


3 ”自然 语言 歧义 与 大 语言 模型 内 部 神经 元 活动 

有 别 于 传统 的 语言 学 研究 ， 神 经 语言 学 通过 融合 神经 科学 、 语 言 学 、 认 知 科 学 、 神 经 生物 学 等 多 个 学 
科 ， 来 研究 人 类 大 脑 对 于 自然 语言 的 理解 和 处 理 过 程 。 通 过 对 齐 大 脑 活 动 与 语言 学 理论 ， 借 由 脑 成 像 、 电 
生理 和 计算 机 建 模 ， 来 评估 语言 学 和 心理 语言 学 理论 [9]。 神 经 语言 学 对 于 失语 症 ， 语 言 障碍 和 脑 损伤 等 
究 有 重要 意义 。 然 而 ， 在 实际 研究 过 程 中 ， 神 经 语言 学 往往 需要 使 用 仪器 大 量 采集 人 类 脑 部 信号 〈 图 9) 
[10]， 较 高 的 采集 成 本 给 相关 研究 带 来 了 巨大 障碍 。 


Via higher-order frontal networks 


Ventral stream 
—_—_—_————"» 


图 9 神经 语言 学 研究 过 程 示例 (Hickok, Poeppel, 2007, p. 395) 


我 们 从 上 文 的 实验 和 分 析 结 果 得 知 ， 大 语言 模型 有 很 强 的 自然 语言 理解 与 感知 能 力 。 与 采集 人 类 脑 前 
言 号 不 同 ， 对 于 开源 大 语言 模型 ， 我 们 可 以 很 方便 地 获取 他 们 在 处 理 不 同文 本 时 的 内 部 神经 元 活动 。Zou 
等 人 [11] 的 研究 发 现 ， 当 大 语言 模型 分 别 在 生成 真实 内 容 和 虚假 内 容 时 ， 其 内 部 的 神经 元 特征 有 明显 的 不 
同 ( 如 图 10 所 示 )。 我 们 可 以 采用 与 神经 语言 学 相似 的 研究 方法 ， 将 大 语言 模型 内 部 特征 与 语言 学 理论 对 
齐 ， 对 语言 本 身 进行 更 深入 地 研究 。 
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10 大 语言 模型 生成 内 容 的 真实 性 与 神经 元 活动 [11] 
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11 例句 对 应 的 百川 2 模型 内 部 神经 元 特征 分 层 展示 


与 上 文 一 致 ， 我 们 采用 百川 2 模型 ， 以 “Ishot an elephant in my pajamas.” 作 为 例句 进行 分 析 。 百 川 2 
13B 模型 由 40 层 基于 自 注 意 力 机 制 的 Transformer[12] 编 码 块 堆 有 而 成 。 对 于 给 定 的 句子 S$， 首先 通过 分 词 
at (Tokenizer) 将 S 切 分 成 N 个 词 〈Token)。 对 于 每 个 词 ， 我 们 取 模 型 每 一 层 的 输出 〈5120 维 的 向 量 ) 作 
为 特征 。 基 于 百川 2 的 分 词 器 ， 给 定 例句 的 分 词 结果 如 下 : 


['I', '__shot', '__an', '—elephant', '_in', 


—my', '_p', 'aj', ‘amas’, '."] 

除了 “pajamas” 被 一 分 为 三 ， 其 余 英 文 单 词 和 标点 都 被 切 分 成 了 单独 的 词 ， 总 计 10 个 。 通 过 获取 百 
川 2 模型 每 一 层 的 输出 ， 得 到 的 特征 张 量 (Tensor) 形状 为 [40, 10, 5120]。 我 们 拟 采 用 热力 图 的 形式 进行 展 
示 。 由 于 原本 特征 张 量 尺寸 较 大 且 维度 较 高 ， 为 了 方便 展示 ， 我 们 首先 对 最 后 一 维 的 特征 以 800 的 倍数 进 
行 采样 ， 并 将 原本 的 特征 张 量 转化 成 一 个 二 维和 矩阵 ， 同 时 分 隔 每 一 个 词 对 应 的 表示 。 最 终结 果 如 图 11 所 
示 。 如 果 用 对 应 数值 的 绝对 值 来 表示 特征 信号 的 强度 ， 从 第 1 层 到 第 40 层 ， 特 征 信 号 总 体 上 随 着 模型 编 
码 层 数 的 县 加 越 来 越 强 。 我 们 将 每 一 个 词 对 应 的 特征 信号 的 绝对 值 进行 分 层 求 和 ， 进 一 步 探究 模型 不 同 层 
的 语义 编码 情况 。 结 果 如 图 12 所 示 。 在 1 至 10 层 ， 不 同 的 词 对 应 的 特征 信号 强度 相对 比较 均衡 。 随 着 层 
WAD, Æ 10-20 层 ， 不 同 的 词 对 应 的 信号 强度 已 经 开始 出 现 差异 。 到 最 后 20 层 , “in” 和 人 句号 “.” 周 围 
的 信号 特征 明显 强 于 其 他 词 ， 表 明 模 型 已 经 关注 到 了 句子 中 的 关键 信息 和 整体 语义 。 
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12 ”例句 中 不 同 的 词 对 应 的 模型 内 部 特征 绝对 值 的 分 层 累加 
8 


在 此 基础 


th 之 上 ， 我 们 给 例句 引入 上 下 文 ， 并 i 


文中 对 其 进行 


编码 时 ， 模 型 内 部 的 神经 元 活动 是 否 


FE 


上 下 


步 探究 对 于 有 上 牙 义 的 句子 ， 大 语言 模型 在 不 同 的 


#3 有 明显 不 同 。 我 们 沿用 上 文中 的 两 个 例子 : 


上 下 文 A: I shot an elephant in my pajamas. As I stumbled out of bed, still drowsy, I couldn't believe what I 


was seeing. 


上 下 文 B: I shot an elephant in my pajamas. How he got in my pajamas I'll never know. 


类 似 地 ， 


上 下 文中 对 应 的 特 
应 的 模型 内 部 特征 
致 。 我 们 把 例句 在 无 上 下 文 、 上 下 文 A 和 B 中 的 模型 内 部 特征 表示 分 别 记 为 Ru、 
Ra 和 Rs， 与 Ro 的 欧 
更 接近 它 在 无 上 下 文 时 的 表示 。 


识 。 


EE E 
12 
| 
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30 Lit} 
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32 图 
34 a On | 
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10 
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12 
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14 
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26 E 
28 
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图 
32 a 
34 E 1E B a 
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38 B i 国 ， =e i me m 
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| shot _an _elephant =n 


我 们 采用 百 
征 表示 如 
差别 非常 小 ， 


1.328 和 1.453. 


式 距 离 分 别 为 


FI 
OH 


事实 上 ， 上 下 文 A 中 对 于 句子 的 理解 ， 即 “我 穿着 睡 


川 2 模型 分 别 对 他 们 进行 编码 和 展示 。“I shot an elephant in my pajamas.” 在 两 种 
图 13 所 示 。 总 体 来 看 ， 对 照 图 11， 例 句 在 无 上 下 文 和 在 不 同 的 上 下 文中 ， 对 
表明 百川 2 模型 对 于 攻 义 的 感知 能 力 较 弱 ， 这 与 本 文 第 2 节 的 实验 结 


R4 和 Rp， 以 Ro 为 参照 ， 
但 依然 说 明 在 上 下 文 A 中 ， 例 名 的 表示 
衣 ”， 确 实 更 符合 常 


有 & 然 差别 较 小 ， 


1.5 
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E 
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0.0 
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a Ed 国 
-0.5 
图 
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a 国 a 
ja] on 
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13 ”例句 在 不 同上 下 文中 对 应 的 百川 2 人 上 下 两 个 子 图 分 别 对 应 上 下 文 AB 


为 了 深入 探究 给 定 例句 在 两 种 上 下 文中 的 细 


微 差 别 ,我们 用 Ro 对 Ra 和 Rs 进行 


过 滤 。 对 于 Ra 和 Rsp， 我 们 
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分 别 减 去 Ro， 并 适当 调整 热力 图 的 刻度 。 结 果 如 


图 14 所 示 。 
特征 表示 还 是 有 较为 明显 的 区 别 。 特 别 是 在 30 RUE, “1”. 


经 过 过 滤 后 ， 例 句 在 两 种 不 同 的 上 下 文中 的 
pajamas” 等 几 个 对 句子 


” e 


elephant”, 


“in 


” e 
` 


理解 起 关键 作用 的 词 , 其 对 应 的 表示 与 无 上 下 文 时 有 明显 区 别 , 在 不 同 的 上 下 文中 也 有 明显 差异 。 而 “shot” 
和 “an” 等 与 句子 歧义 无 关 的 词 ， 对 应 的 特征 表示 之 间 的 差异 较 小 。 
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14 利用 例句 在 无 上 下 文中 的 表示 对 不 同上 下 文中 的 表示 进行 归 一 化 ， 上 下 两 个 子 图 分 别 对 应 R4 一 Ro 和 Rp 一 Ro 


总 体 来 看 ， 自 然 语言 中 句子 的 旷 义 现象 可 以 通过 大 语言 模型 内 部 的 神经 元 信号 展现 | 


大 语言 模型 对 文本 表层 对 应 的 语义 信息 的 感知 能 


， 要 


8 来 。 另 一 方面 ， 
明显 强 于 对 收 义 等 比较 复杂 的 语言 现象 的 感知 和 分 


析 能 力 。 例 如 ， 如 果 我 们 把 例句 中 的 “shot” 替 换 为 “rode”， 大 语言 模型 的 内 部 活动 会 发 生 明 显 变化 如 


图 15 所 示 )。 这 时 , 两 句 话 对 应 的 特征 表示 之 间 的 


欧式 


E 离 为 250.2, 远大 于 Rs4 和 Rs 与 Ro 之 间 的 欧式 距离 。 
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15 上 图 为 将 例句 中 的 “shot ”替换 为 “rode” 后 ， 对 应 的 百川 2 模型 内 部 特征 展示 ; 下 图 为 减 去 Ro 之 后 的 结果 
士 15 
4 总 结 与 展望 
大 语言 模型 的 快速 发 展 为 各 类 复杂 问题 提供 了 新 的 智能 化 解决 方案 ,包括 帮助 人 类 更 好 地 分 析 与 理解 


语言 本 身 , 这 给 语言 学 带 来 了 新 的 思路 与 用 


完 方法 。 本 文 以 自然 语言 中 的 卜 义 现象 为 例 , 评估 了 以 GPT4、 


百川 2 与 ChatGLM3 模型 为 代表 的 大 语言 模型 对 于 复杂 语言 现象 的 感知 与 分 析 能 力 。 作 为 目前 最 好 的 通用 


大 语言 模型 之 一 ，GPT4 可 以 运用 语言 学 入 


H 识 ， 有 效 融 合 歧义 消解 与 句法 分 析 两 个 传统 的 自然 语言 处 型 
务 ， 准 确 分 析 给 定 例句 中 的 歧义 现象 。 相 比 之 下 ， 开 源 大 语言 模型 百川 2 对 于 歧义 的 感知 能 力 较 弱 ， 需 


任 
要 


H 


通过 比较 明确 的 提示 引导 来 实现 准确 分 析 。ChatGLM3 的 尺寸 更 小 ， 其 对 歧义 的 感知 和 分 析 能 力 则 更 弱 。 


另 一 方面 ， 对 于 开源 大 语言 模型 ， 我 们 可 以 方便 地 获取 模型 在 处 到 


文本 时 的 内 部 神经 元 特征 。 参 照 神经 语 


言 学 相关 研究 方法 ， 我 们 探究 大 语言 模型 内 部 活动 与 语言 学 现象 之 间 的 对 应 关系 。 由 于 百川 2 模型 对 于 歧 
义 的 感知 和 分 析 能 力 较 弱 ， 给 定 例句 在 不 同 的 上 下 文中 的 特征 表示 差别 较 小 ， 但 通过 不 同上 下 文中 模型 特 
征 的 对 比 与 过 滤 ， 我 们 依然 可 以 明显 观察 到 卜 义 现象 与 模型 内 部 特征 表示 之 间 的 相关 性 。 

助 大 语言 模型 进行 语言 学 研究 的 可 能 性 。 随 着 大 语言 模型 ， 特 别 是 开 


本 文通 过 相关 实验 初步 验 订 


E 了 借 


源 大 模型 本 身 的 ; 
hy 

语言 模型 内 部 特征 与 语言 
术 的 进步 ， 同 时 也 促进 语 


x 


=j 


究 各 类 复杂 的 语言 现象 和 问题 带 来 更 多 的 可 能 性 
学 理论 的 对 齐 ， 从 
学 理论 的 发 展 。 


步 ， 其 对 复杂 语言 现象 的 感知 能 力 科 


, 


jE = ay 
wast 


FAA AEA Bic 


1 分 析 能 力也 会 越 来 越 强 ， 这 也 将 为 我 们 通过 大 模型 


本 ， 通 过 更 深入 地 分 析 实 现 大 


的 角度 为 大 语言 模型 提供 可 解释 性 ， 


动 大 模型 相关 技 
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